查看原文
其他

「春花秋月何时了」里面编码着「国恨家仇」

王建硕 王建硕 2023-03-31

在我的想象中,未来机器人和机器人之间应该用自然语言沟通,而不是机器语言(无论是代码,还是协议,或者二进制的某种编码)。
自然语言会不会机器语言效率更低呢?
恰恰相反,自然语言是一种比机器语言高效,准确得多的语言,越古老,语料越丰富的语言,就越高效,越准确。
这个结论非常反直觉,我来解释一下。
以 SMTP (简单邮件传输协议)为例,它定义了大约十几个命令,比如HELO,OLEH,FROM,RCPT,DATA 等等。如果用二进制表达,2的4次方差不多就够了。很简单,很高效对吗?
如果是用自然语言表达,可能是「你好」,「Hola」,或者「こんにちわ」或者 「م١ليب」。这些文字,通过一个类似于 GPT-3 一样的大语言模型,会被翻译成一个 1536 维的向量,也就是 1536 个浮点数字。如果一个浮点数用 4 个字节表达,那就 2 的 32 次方的 1536 次方的信息,或者等于2 的 49152 次方这么一个数字。这个数字大得让我窒息。这个数字有多大,我不知大。至少我知道,我们现在已知的整个世界的原子数是 2 的 78 次方,多一位,就是 2 的 79 次方(就是两倍于宇宙的原子数)就已经让我无法想象了,不要说从 78 次方变成 49152 次方。
而传输的自然语言本身有多少信息量呢?你好用 Unicode 编码也就是四个字符,2 的32 次方而已。
也就是是说,大语言模型可以把任何一个自然语言的词或者句子「扩展」成远远远远大于这个词本身的信息量。‍‍‍‍‍‍‍‍‍‍‍‍‍‍
也就是说,4 个字节的信息进6000 多个字节出。这不符合信息守恒定律呀。这是怎么做大的呢?
秘密就在于:人类的自然语言的历史上所有的语料,就是一本「密码本」。这个密码本被说的人和听的人共享。
举例子,如果我们有一本厚得不得了的书,几百亿页,包含了人类所有重要的知识。要是相隔几千公里的两个城市都有这个密码本,我们想把《三体》这一本书传递到另外一个城市,我们不用传递《三体》本身的 100 万字,而需要告诉对方一个索引,可能就是一个很小很小的数字,对方就可以从中根据密码本找到这本书。
人类历史上的所有的自然语言加和,就是这么一本密码本。我们只要说一句「春花秋月何时了」,不用加任何其他的信息,国恨家仇,幽怨的囚禁生活等等这些信息,不需要传递,就已经在每个懂这门语言的人的心里传递过去了。
两个人刚刚见面,表达一件事情需要说很多话;但是当两个人在一起合作了 20 年,可能三言两语,对方就心领神会。当两个人有共同的知识的情况下,可以通过传递更少的信息,而从共享的数据中获取多得多的信息。
我们回到 SMTP 的例子,我们看似几个命令非常简单,但是要是表达极为复杂的内容,根本无法用这几个命令组合完成。比如一个机器人决定礼貌的问候对方 ,而他只有 HELO 这一个指令,他将毫无办法。但是未来,一个机器人和另外一个机器人的问候语,可以是「你好」,可以是「吃了吗?」,可以是「」,可以是「你丫的跑哪去了?」,这几字节的信息能够传递的丰富的内涵,只要看一下汗牛充栋的小说,文献,就可以当作从这几句里面扩充信息的丰富的素材。
苹果」这两个字,如果让不懂自然语言的人看起来就是两个字的信息。但是大语言模型眼里面,这两个字里面包含了「」,包含了「」,有「」,也有「种子」,有「邪恶」的感觉,也有「七个小矮人」环绕,有「图灵」的不甘心。。。。你只要想想一下 2 的将近 50000 次方里面能放多少信息,苹果这两个字里面在大模型里面就有多少信息。
所以,用自然语言作为机器人和机器人之间的交流语言,不但不会低效,反而是无法想象的高效。就如同人类的一个眼神,就传递了无数的信息。这些信息其实不仅仅是由信息本身传递的,而是在人类的基因和文化的浩瀚的结构中包含的,眼神仅仅是一个索引

我进一步推论,历史越长,内容越浩瀚的语言,传递的效率越高。比如中文,就比毛利语更能准确的传递信息,因为中文的语料,有几千年的积累,而毛利语我们能找到的文献,相比来说小得多。或许,英语,中文这样的语言是最适合机器人交流的语言。

注:后台回复「文心一言」可以通过「文心一言智能号」直接开始体验。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存